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Introducción 


Una  imagen  de  satélite  es  un  conjunto  de  datos  con 
información  cuantitativa.  Tal  como  se  definió,  la  ima¬ 
gen  digital  es  un  modelo  de  reflectancia  del  terreno, 
que  bien  se  puede  referir  a  un  solo  intervalo  espec¬ 
tral,  en  el  caso  de  las  imágenes  pancromáticas  mono- 
banda,  o  bien  puede  estar  constituida  por  un  con¬ 
junto  de  bandas,  si  se  trata  imágenes  multi  o  hiperes- 
pectrales.  En  cualquier  caso,  la  información  que  pro¬ 
porciona  la  imagen  está  contenida  exclusivamente  en 
ese  conjunto  de  datos.  Ahora  bien,  la  interpretación 
de  tal  información  cuantitativa  no  es  inmediata,  espe¬ 
cialmente  para  un  usuario  medio  no  familiarizado. 
Para  este  tipo  de  destinatario,  es  preferible  etiquetar 
las  áreas  de  la  imagen  con  las  características  temáti¬ 
cas  buscadas,  para  así  facilitar  su  comprensión.  In¬ 
cluso  el  personal  investigador  puede  requerir  califi¬ 
car  la  imagen  para  seleccionar  áreas  de  interés  o  en¬ 
contrar  en  la  escena  determinadas  cualidades  busca¬ 
das.  La  clasificación  de  imágenes  se  orienta  en  el 
campo  de  la  teledetección  a  la  ocupación  de  suelo  o, 
si  la  resolución  espectral  de  la  imagen  lo  permite,  a 
establecer  categorías  de  las  relacionadas  en  una  le¬ 
yenda  previamente  confeccionada. 


La  clasificación  digital  es  un  proceso  de  generaliza¬ 
ción  temática  que  categoriza  la  información  de  la  ima¬ 
gen,  esto  es,  convierte  la  información  cuantitativa  en 
información  cualitativa.  Como  en  cualquier  proceso 
de  generalización  cartográfica,  siempre  se  pierde  in¬ 
formación  con  relación  al  conjunto  original  de  datos, 
pero  en  el  caso  de  la  clasificación,  esa  merma  está 
justificada  por  la  mejora  en  la  interpretación  y  en  la 
usabilidad  de  la  imagen. 

El  problema  en  el  ámbito  de  la  clasificación  de  imá¬ 
genes  espaciales  queda  planteado  del  siguiente 
modo:  se  trata  de  establecer  a  qué  clase  pertenece 
una  determinada  celda,  de  entre  las  i  clases  que  inte¬ 
gran  la  leyenda,  en  virtud  de  las  componentes  de  su 
vector  de  características.  Por  ejemplo,  se  pretende  es¬ 
tablecer  si  una  celda  que  presenta  unos  determinados 
niveles  digitales  en  cada  una  de  las  distintas  bandas 
de  la  imagen  está  ocupada  por  un  suelo  desnudo,  un 
cultivo  herbáceo,  una  zona  urbana  o  un  bosque  de 
coniferas. 


La  imagen  como  variable  aleatoria  multivariante 


En  análisis  digital  de  imágenes  es  muy  común  recu¬ 
rrir  a  métodos  paramétricos  de  clasificación  por  la 
sencillez  del  tratamiento. 

Los  niveles  digitales  en  una  imagen  de  satélite  pue¬ 
den  considerarse  como  una  variable  aleatoria.  Será 


univariante  cuando  la  imagen  tenga  una  sola  banda 
y  multivariante  en  el  caso  de  las  imágenes  multi  o 
hiperespectrales.  En  la  mayoría  de  los  casos,  la  distri¬ 
bución  de  los  ND  tiende  a  la  distribución  normal.  So¬ 
lamente  cuando  en  la  imagen  existen  zonas  bien  con- 
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trastadas  y  diferenciadas,  la  distribución  puede  par¬ 
tirse,  aunque  cada  una  de  las  zonas  responde  a  su 
vez  a  la  forma  gaussiana  de  distribución. 

Considerar  ajustada  a  la  distribución  normal  el  con¬ 
junto  de  ND  de  la  imagen  tiene  la  ventaja  de  poder 
representar  la  distribución  solamente  con  dos  pará¬ 
metros:  su  media  y  su  varianza  en  el  caso  de  imáge¬ 
nes  monobanda  y  su  vector  de  medias  y  la  matriz  de 
covarianzas,  en  el  caso  de  multiespectrales. 

La  función  de  densidad  de  la  distribución  normal  uni- 
variante  es: 

=  (!) 
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y,  de  forma  análoga,  la  de  la  normal  multivariante  es: 


Considerando  solamente  dos  bandas,  la  distribución 
de  ND  adquiere  la  forma  de  una  nube  bidimensional, 
con  una  mayor  densidad  de  puntos  en  su  zona  cen¬ 
tral,  en  torno  a  lo  que  se  podría  denominar  su  centro 
de  gravedad  y  que  muestra  habitualmente  una  cierta 
alineación  o  tendencia  en  una  determinada  dirección. 

Si  la  imagen  tiene  tres  bandas,  en  condiciones  idea¬ 
les,  la  nube  de  puntos  tendrá  una  forma  que  podría 
asemejarse  a  un  elipsoide.  Si,  finalmente,  contiene 
cuatro  o  más  bandas,  la  nube  podría  considerarse  un 
hiperelipsoide.  En  cualquiera  de  los  casos,  para  dis¬ 
tribuciones  normales,  el  agrupamiento  de  puntos  en 
el  espacio  de  características  queda  definido  por  su 
vector  de  medias,  que  señala  el  centro  de  gravedad 
de  la  nube,  y  la  matriz  de  covarianzas  de  la  imagen, 
que  determina  su  forma.  El  hiperelipsoide  puede  ob¬ 
tenerse  haciendo  constante  la  forma  cuadrática  del 
exponente  de  la  función  de  densidad  multivariante: 
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donde  z  es  el  vector  de  características  de  una  celda 

determinada,  M  es  el  vector  de  medias  y  S  es  la 
matriz  de  covarianzas,  ya  utilizada  en  la  transforma¬ 
ción  a  componentes  principales,  explicada  en  el  capí¬ 
tulo  12: 
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que  es  el  cuadrado  de  la  llamada  distancia  de  Maha- 
lanobis  entre  z  y  M  en  la  geometría  de  X . 

La  orientación  de  los  ejes  está  definida  por  los  vecto¬ 
res  propios  de  la  matriz  de  covarianzas,  y  el  grado  de 
dispersión  o  alargamiento  de  la  nube  en  cada  direc¬ 
ción  depende  del  valor  propio  asociado  a  cada  vector 
propio. 


Infrarrojo  próximo 

Imagen  en  color  compuesto  RGB=IRm-IRp-R  y 
un  diagrama  de  dispersión  IRm/IRp  con  resolu¬ 
ción  radiométrica  de  8  bits.  Los  colores  cálidos 
indican  mayor  concentración  de  celdas. 
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Es  un  hecho  que  grupos  de  celdas  con  un  comporta¬ 
miento  espectral  similar  aparecerán  en  lugares  próxi¬ 
mos  cuando  se  representan  en  un  diagrama  de  dis¬ 
persión.  En  el  terreno,  esas  celdas  tienen  una  misma 
naturaleza  química,  y,  en  definitiva,  están  ocupadas 
por  la  misma  cobertura.  En  el  proceso  de  identificar 
y  discriminar  categorías  nominales  en  la  imagen,  ese 
conjunto  de  celdas  constituirán  una  clase. 


Nd 


Barda  I 


lisfograma  I 


Barda  k 


Tres  agrupamientos  de  puntos  pueden  ser  con¬ 
fundidos  con  dos  si  solamente  se  estudia  la  dis¬ 
tribución  de  ND  en  una  sola  banda.  El  aumento 
de  la  espectralidad  beneficia  la  identificación. 


Significa  esto  que  en  el  espacio  espectral,  las  celdas 
se  organizan  como  nubes  de  puntos  próximos  entre 
ellos  y,  a  su  vez,  diferenciados  de  otras  categorías  de 
celdas.  En  una  situación  ideal,  las  nubes  de  puntos 
son  independientes,  alejadas  unas  de  otras  y  clara¬ 
mente  identificables  y  separables.  En  las  imágenes 
reales,  las  nubes  se  mezclan,  se  solapan  parcialmente 
y  su  discriminación  no  resulta  tan  fácil.  Sin  embargo, 
agrupamientos  o  racimos  ( clusters )  de  puntos  que 
pueden  ser  confundidos  como  uno  solo  cuando  se  los 
estudia  en  un  espacio  espectral  de  tan  solo  unas 
cuantas  bandas,  pueden  ser  separables  si  se  recurre 
a  un  mayor  número  de  canales.  La  espectralidad  de 
la  imagen  es  un  factor  esencial  a  la  hora  de  discrimi¬ 
nar  categorías. 

Entendiendo  clasificador  como  el  algoritmo  o  el  ope¬ 
rador  matemático  de  clasificación,  el  entrenamiento 
del  clasificador  es  una  tarea  mediante  la  cual  se  defi¬ 
nen  los  parámetros  esenciales  que  identifican  a  cada 
clase,  esto  es,  su  vector  de  medias  y  su  matriz  de  co- 
varianzas. 


El  entrenamiento  del  clasificador  puede  ser  de  dos 
tipos:  supervisado  o  no  supervisado.  En  el  primero, 
el  operador  delimita  una  muestra  de  celdas  por  cada 


clase,  a  partir  de  la  cual  se  calculan  ambos  estadísti¬ 
cos.  En  el  entrenamiento  no  supervisado,  a  partir  de 
unas  instrucciones  mínimas,  se  deja  al  sistema  de  tra¬ 
tamiento  que  busque  agrupamientos  naturales  de  va¬ 
lores  en  el  espacio  de  características. 

Entrenamiento  supervisado 

Un  paso  previo  al  entrenamiento  supervisado  es  la 
elaboración  de  la  leyenda  de  la  clasificación.  El  ana¬ 
lista  deberá  decidir  qué  clases  buscará  en  la  imagen, 
y  una  vez  establecidas  las  categorías,  habrá  de  definir 
en  la  escena  los  campos  de  entrenamiento  ( training 
fields ),  que  son  un  conjunto  de  parcelas  constituidas 
por  celdas  suficientemente  representativas  de  cada 
clase. 

De  la  correcta  selección  de  los  campos  de  entrena¬ 
miento  depende  estrechamente  el  resultado  de  la  cla¬ 
sificación.  En  primer  lugar,  la  pureza  de  los  píxeles 
es  un  requisito  necesario.  Las  celdas  recolectadas  en 
los  campos  de  entrenamiento  deben  representar  so¬ 
lamente  a  la  cubierta  que  se  pretende  caracterizar, 
sin  contaminación  de  otras.  Dicho  de  otro  modo,  hay 
que  descartar  los  píxeles  mixtos,  situados  sobre  dos 
clases  diferentes  o  en  las  proximidades  de  bordes  de 
parcela  con  las  categorías  que  se  pretenden  represen¬ 
tar. 

Pero  a  su  vez,  para  que  le  muestra  sea  representativa, 
hay  que  respetar  y  recoger  en  ella  la  variabilidad  in¬ 
terna  de  la  clase.  El  conjunto  de  campos  de  entrena¬ 
miento  debe  incluir  la  variación  interna  de  cada  clase 
para  dar  cabida  a  las  posibles  condiciones  diferencia- 
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das  de  la  cubierta,  como  su  orientación,  la  ilumina¬ 
ción,  el  tipo  de  suelo,  su  grado  de  humedad,  amén  de 
las  diferencias  inherentes  a  la  propia  cubierta. 

En  cuanto  al  número  y  distribución  de  los  campos  de 
entrenamiento,  utilizando  uno  solo  para  representar 
cada  clase  se  corre  el  riesgo  de  particularizar  excesi¬ 
vamente  sus  características.  Así,  tras  la  clasificación 
podrían  aparecer  zonas  que,  aun  estando  ocupadas 
por  la  misma  cubierta,  quedarían  sin  atribuir  a  esa 
clase.  Por  ejemplo,  a  la  hora  de  entrenar  un  cultivo 
como  el  olivar,  conviene  tomar  varios  campos  de  en¬ 
trenamiento  en  los  que  se  incluyan  celdas  ocupadas 
por  distintos  tipos  y  condiciones  de  cultivo:  tradicio¬ 
nales,  intensivos,  en  secano,  en  regadío,  sobre  suelos 
rojos,  sobre  albarizas,  en  ladera  norte  y  sur,  con  poca 
y  mucha  pendiente,  etc. 

El  número  de  celdas  necesario  para  configurar  la 
clase  en  el  entrenamiento  depende  de  la  variabilidad 
interna  de  la  clase.  Considerando  que  los  ND  de  cada 
clase  siguieran  una  distribución  normal,  el  número 
mínimo  de  celdas  a  tomar  para  estimar  un  ND  pro¬ 
medio  representativo  es: 


donde  z2^  es  el  percentil  de  la  distribución  normal 

M0,1)  correspondiente  a  la  mitad  del  nivel  de  con¬ 
fianza  exigido  en  la  estimación,  a2  es  la  varianza  de 
la  clase  en  la  banda  más  desfavorable  y  s  es  el  error 
que  se  está  dispuesto  a  admitir  en  la  estimación  del 
ND  promedio. 

Por  ejemplo,  para  un  intervalo  de  confianza  del  95  % 
(Zo, 05/2= 1,96),  una  desviación  típica  de  los  ND  de  15 
unidades  y  un  error  máximo  de  2  niveles  digitales 
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para  la  estimación  del  ND  promedio,  se  necesita  una 
muestra  de  al  menos  n  >  1,962  -152/22  =216  celdas. 
Para  un  nivel  de  confianza  del  99  %,  en  cambio,  se 
necesitarían  n>371  celdas. 

En  conclusión,  clases  muy  uniformes  quedarán  bien 
descritas  con  pocas  celdas.  Por  el  contrario,  clases  de 
reflectancia  muy  heterogénea  necesitarán  un  mayor 
número  de  celdas  para  estar  bien  caracterizadas. 

Las  celdas  de  entrenamiento  deben  estar  distribuidas 
en  campos  o  polígonos  de  entrenamiento,  siendo  pre¬ 
ferible  un  mayor  número  de  ellos,  aunque  sean  de 
menor  tamaño,  que  un  sólo  campo  de  entrenamiento 
que  contenga  todas  las  celdas  de  la  muestra.  En 
cuanto  a  su  situación,  los  campos  de  entrenamiento 
deben  distribuirse  espacialmente  según  la  variabili¬ 
dad  de  la  escena. 

Cuando  no  se  disponga  de  otra  información,  como 
aproximación  se  pueden  tomar  entre  10  y  100  celdas 
por  banda  de  la  imagen  multiespectral  para  cada  una 
de  las  clases.  Así  pues,  para  una  imagen  de  5  bandas, 
deberían  recolectarse  entre  50  y  500  celdas  para  con¬ 
figurar  la  muestra  de  entrenamiento  de  cada  clase, 
distribuidas  en  varios  polígonos. 

Entrenamiento  no  supervisado 

Los  métodos  no  supervisados  o  automáticos  buscan 
en  el  espacio  de  características  de  la  imagen  agrupa¬ 
ciones  espontáneas  de  los  datos,  de  acuerdo  a  alguna 
función  de  similaridad.  En  la  literatura,  esas  nubes 
de  puntos  aparecen  con  diferentes  denominaciones: 
agrupamientos,  clusters,  grupos  o  racimos,  y  pueden 
considerarse  como  regiones  continuas  del  espacio  de 
características  que  contienen  densidades  relativa¬ 
mente  altas  de  puntos,  y  que  se  encuentran  a  su  vez 


separada  de  otras  regiones  de  alta  densidad  por  re¬ 
giones  cuya  densidad  de  puntos  es  relativamente 
baja. 

El  entrenamiento  no  supervisado  ordinariamente  va 
unido  al  propio  proceso  de  clasificación  y  recorre  un 
triple  proceso.  En  primer  lugar,  se  determinan  las  ca¬ 
racterísticas  de  las  celdas  de  entrenamiento,  a  conti¬ 
nuación,  se  calcula  la  similaridad  o  distancia  estadís¬ 
tica  entre  casos  y,  finalmente,  se  aplica  algún  criterio 
de  agrupamiento  de  los  casos  similares  o  de  escisión 
en  clases  diferentes. 

La  clasificación  automática  tiene  el  inconveniente  de 
poder  encontrar  agrupamientos  que  realmente  no  tie¬ 
nen  significado  identificable  en  la  leyenda  de  la  clasi¬ 
ficación.  En  realidad,  desde  un  punto  de  vista  teórico, 
siempre  que  no  existan  dos  vectores  de  característi¬ 
cas  exactamente  iguales,  es  posible  identificar  tantas 
clases  diferentes  como  celdas  tenga  la  imagen,  lo  cual 
carece  de  sentido  cartográfico.  Por  esta  razón  hay 
que  informar  al  clasificador  de  numerosos  detalles 
para  que  busque  solamente  los  clusters  que  se  nece¬ 
sitan,  o  un  número  próximo  al  deseado.  En  definitiva, 
el  número  de  parámetros  requeridos  para  que  el  al¬ 
goritmo  proporcione  resultados  consistentes,  en  nu¬ 
merosas  veces  desconocidos,  hace  dudar  del  propio 
apelativo  de  no  supervisado. 

Por  el  contrario,  la  clasificación  supervisada  puede 
adolecer  del  defecto  contrario,  esto  es,  disponer  de 
una  leyenda  excesivamente  ambiciosa  que  incorpora 
clases  que  espectralmente  no  son  separables. 

De  todo  esto  se  concluye  que  los  métodos  mixtos  de 
clasificación,  que  incluyen  a  los  dos  anteriores,  son 
deseables  sobre  cualquiera  de  ambos  por  separado, 
siempre  que  se  disponga  de  los  recursos  necesarios 
para  llevarlos  a  cabo.  En  la  estrategia  para  combinar 
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los  procedimientos  supervisados  y  no  supervisados 
pueden  seguirse  dos  caminos:  se  puede  realizar  una 
clasificación  inicial  no  supervisada  cuyo  resultado 
será  posteriormente  supervisado  por  el  analista,  agru¬ 
pando  clusters  de  igual  significación  temática  y  sepa¬ 
rando  en  nuevas  clases  las  que  mezclen  dos  catego¬ 
rías  diferentes,  o  bien  se  pueden  hacer  las  dos  clasifi¬ 
caciones,  supervisada  y  no  supervisada,  y  posterior¬ 
mente  se  sintetizan  los  resultados  obtenidos.  Para  las 
clases  obtenidas  pueden  darse  tres  casos: 

-i  Categorías  que  aparezcan  en  las  dos.  La  leyenda 
es  correcta  porque  las  clases  cartográficas  pro¬ 
puestas  en  el  entrenamiento  supervisado  tienen 
además  significación  espectral. 

-i  Categorías  recogidas  en  la  leyenda,  pero  no  iden- 
tificables  en  la  clasificación  no  supervisada.  En 
este  caso  se  ha  sido  demasiado  ambicioso  en  el 
diseño  de  las  clases  y  la  espectralidad  de  la  imagen 
no  permite  su  separación.  Por  lo  tanto,  deben  re¬ 
estudiarse  estratificando  la  imagen  o,  simple¬ 
mente,  simplificando  la  leyenda. 

— i  clases  no  supervisadas  que  aparecen  sin  estar  en 
la  leyenda.  La  clasificación  proporciona  mayor  nú¬ 
mero  de  clases  espectrales  que  cartográficas  y  por 
ello  el  entrenamiento  ha  sido  tímido.  La  informa¬ 
ción  contenida  en  la  imagen  permite  desagregar 
más  la  leyenda,  adaptándola  a  la  heterogeneidad 
de  la  escena. 
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Análisis  de  separabilidad 

Con  el  fin  de  dimensionar  adecuadamente  la  cam¬ 
paña  de  entrenamiento  y  tratar  de  conseguir  que  las 
clases  cartográficas  coincidan  con  las  clases  espectra¬ 
les,  es  aconsejable  realizar  previamente  un  análisis 
de  separabilidad  de  las  clases.  Esta  información  per¬ 
mitirá  al  analista  seleccionar  solamente  las  clases  que 
el  clasificador  sea  capaz  de  resolver  como  diferencia¬ 
das. 

Si  las  clases  son  patentemente  diferentes,  el  riesgo  de 
error  en  la  clasificación  será  bajo  en  general,  pero 
probablemente  la  leyenda  será  también  más  pobre  de 
lo  que  permitiría  la  riqueza  espectral  de  la  imagen. 
Por  el  contrario,  si  clases  son  muy  similares  desde  el 
punto  de  vista  espectral,  la  clasificación  entrañará  un 
elevado  riesgo  de  confusión  que  requeriría,  en  su 
caso,  sustituir  la  leyenda  por  otra  menos  desagre¬ 
gada.  Antes  de  la  fase  de  clasificación  conviene,  pues, 
estudiar  la  separabilidad  de  las  clases. 

Existen  dos  grupos  de  métodos  para  ello: 

-i  Métodos  gráficos,  que  evalúan  la  separabili¬ 
dad  a  partir  de  los  diagramas  de  signaturas. 

—i  Métodos  estadísticos,  que  evalúan  la  separa¬ 
bilidad  de  dos  agrupamientos  de  datos  mi¬ 
diendo  la  distancia  entre  ellos  en  el  espacio 
de  características. 

Los  primeros  proporcionan  una  información  prelimi¬ 
nar  para  decidir  a  priori  si  las  categorías  serán  o  no 
discriminables.  Un  diagrama  de  signaturas  es  una  ge¬ 
neralización  de  la  signatura  espectral  de  las  clases, 
sobre  la  que  se  remuestrea  el  barrido  espectral  de 
acuerdo  con  la  anchura  de  banda  y  la  longitud  de 
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onda  central  de  los  canales  del  sensor.  Las  gráficas 
incluyen  el  valor  medio  por  clase  en  cada  banda  y 
alguna  medida  de  dispersión  alrededor  de  ella,  como 
el  rango  de  variación,  la  desviación  estándar,  etc. 
Para  cada  banda  es  posible  estudiar  más  detallada¬ 
mente  el  solapamiento  estadístico  de  las  clases  super¬ 
poniendo  sus  histogramas. 

Los  métodos  estadísticos  miden  la  distancia  existente 
entre  los  centros  de  dos  agrupamientos,  es  decir,  la 
que  hay  entre  sus  vectores  de  medias.  La  distancia  de 
Minkowski  se  define  así: 


EK-í-J 


i= 1 


(5) 


donde  p>  1,  y  ay  b  son  los  componentes  de  los  vec¬ 
tores  de  medias  de  los  agrupamientos  Ay  B.  Dando 
valores  a  p  se  obtienen  las  distintas  distancias  métri¬ 
cas,  de  entre  las  cuales  la  más  familiar  es  la  distancia 
euclídea  para  n  bandas,  que  se  obtiene  cuando  p= 2: 


A(M,,M  =  -/>,)’  (6) 


Escrito  de  otra  forma,  la  distancia  euclídea  entre  los 
centros  de  dos  agrupamientos  es: 


Bandas 


Léven  dd: 


ted  varia 
suelos  deenudct 
cultivo?  en  regadío 
aguo 


Diagrama  de  signatura  de  cuatro  clases, 
para  un  sensor  de  7  canales. 
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siendo  NDa¡  y  NDB¡  los  niveles  digitales  medios  en 
cada  banda  i  de  los  agrupamientos  Ay  B. 

Otra  forma  de  medir  la  distinguibilidad  de  las  clases 
es  mediante  la  separabilidad  estadística,  que  se  define 
así: 


-i  Si  DTab  >  1,9 ,  las  clases  Ay  B  son  separables. 

-i  Si  1, 7  <  DTab  <  1 ,9 ,  la  separación  entre  A  y  B  es 
aceptable. 

-i  Si  DTab  <1,7,  las  clases  A  y  B  son  difícilmente 
separables. 


d 


AB 


°A+°B 


(8) 


Lo  cual  es  un  método  similar  al  anterior,  pero  pro¬ 
porciona  valores  normalizados  al  dividir  por  la  suma 
de  las  varianzas  de  ambos  agrupamientos,  es  decir, 
relativiza  las  distancias  de  acuerdo  a  la  dispersión  de 
los  valores. 

En  distribuciones  normales  multivariantes  puede 
adoptarse  la  divergencia  estadística  como  parámetro 
de  separabilidad: 


+ 


+  \Tr 


(9) 


Donde  Tr  indica  la  traza  de  las  matrices  resultantes. 


Aunque  en  el  plano  ik,  los  agrupamientos  Ay  B 
están  alineados  y  ello  pudiera  hacer  pensar  de 
que  se  trata  de  una  misma  categoría,  el  examen 
de  sus  proyecciones  sobre  los  planos  ij  y  jk  revela 
que  se  trata  de  dos  agrupamientos  diferentes.  Su 
ángulo  espectral  será  distinto  de  cero. 


Es  también  relativamente  frecuente  el  uso  de  la  di¬ 
vergencia  transformada: 

DTab=  2(l-KD-)  (10) 

donde  Dab  es  la  divergencia  estadística  entre  Ay  B  y 
siempre  0  <  DTAB  <  2 .  El  criterio  de  interpretación 
es  el  siguiente: 


Un  procedimiento  muy  utilizado  para  evaluar  distan¬ 
cias  entre  clases  en  teledetección  hiperespectral  es 
medir  el  coseno  del  ángulo  espectral,  o  el  ángulo  di¬ 
rectamente,  que  da  lugar  a  algoritmos  como  el  ma- 
peador  de  ángulo  espectral  (SAM).  Dado  que  el  pro¬ 
ducto  escalar  de  los  vectores  de  medias  de  dos  agru¬ 
pamientos  A  y  B  es: 


M‘a-Mb  = 


M, 


M, 


cosa 


se  puede  escribir: 


-i 


a  =  eos 


m;mb 


M, 


=  eos 


2>a 


¿=i 


2>.2  JIV 


i=l 


1=1 


(11) 


aunque  a  primera  vista  pueda  parecer  que  agrupa¬ 
mientos  diferentes  que  estén  alineados  con  el  origen 
de  coordenadas  espectrales  serían  confundidos  con 
un  solo  agrupamiento  según  este  criterio,  puesto  que 
eos  a  =  1 ,  esta  alineación  habitualmente  no  ocurre 
en  todas  las  bandas,  por  lo  cual  siempre  se  encon¬ 
trará  un  cierto  ángulo  espectral  distinto  de  cero.  So¬ 
lamente  en  el  caso  de  que  el  alineamiento  se  verifique 
en  el  conjunto  de  todas  las  bandas,  es  cuando  habrá 
que  considerar  que  la  clase  es  única,  aun  mostrando 
distintos  centros  de  alta  densidad.  Esto  sucede 
cuando  la  cobertura  estudiada  muestra  áreas  mal  ilu¬ 
minadas,  que  acercan  las  nubes  de  puntos  hacia  el 
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origen,  frente  a  otras  correctamente  iluminados.  Un 
efecto  similar  produce  el  exceso  de  humedad,  que 
siempre  oscurece  la  clase  en  las  bandas  del  espectro 
visible  y  de  los  distintos  infrarrojos. 

La  distancia  de  Mahalanobis  proporciona  un  método 
para  comparar  distancias  dentro  de  la  métrica  gene¬ 
rada  por  cada  agrupamiento,  derivada  de  la  distribu¬ 
ción  y  densidad  de  los  puntos  de  la  nube.  Se  expresa 
así: 


^„,(í,m)  =  a/{5-)'  S-'(z-M)  (12) 

y  como  puede  observarse  es  realmente  la  raíz  de  la 
forma  cuadrática  de  la  distribución  normal  multiva- 
riante.  En  una  nube  hiperelipsoidal,  las  superficies  de 
isodistancia  no  son  hiperesferas  sino  hiperelipsoides, 
que  quedan  mejor  caracterizados  con  la  distancia  de 
Mahalanobis. 


Finalmente,  otra  distancia  que  suele  emplearse  con 
fines  de  separabilidad  entre  clases  es  la  de  Bhatta- 
charyya: 


+  jln 


Sl+S2 


(13) 


ZiP2 


Se  considera  un  estadístico  más  fiable  que  la  distan¬ 
cia  de  Mahalanobis,  dado  que  esta  última  es  un  caso 
particular  de  la  de  Bhattacharyya  cuando  las  desvia¬ 
ciones  estándar  de  las  dos  clases  son  iguales.  Cuando 
dos  clases  tienen  valores  promedio  muy  similares 
pero  diferentes  desviaciones  estándar,  la  distancia  de 
Mahalanobis  tiende  a  cero,  mientras  que  la  distancia 
Bhattacharyya  crece  a  medida  que  lo  hace  la  diferen¬ 
cia  entre  las  desviaciones  estándar. 


Fase  de  asignación 

Durante  la  fase  de  asignación  se  asigna  una  etiqueta 
de  clase  a  cada  celda,  es  decir,  se  atribuye  cada  celda 
de  la  imagen  a  una  de  las  categorías  de  la  leyenda 
previamente  elaborada. 

Para  ello  es  necesario  establecer  una  función  de  si- 
milaridad  que  permita  asegurar  que  las  celdas  que 
pertenecen  a  un  agrupamiento  son  más  parecidas  en¬ 
tre  sí  que  a  cualesquiera  otras  que  pertenezcan  a  otro 
diferente.  Las  funciones  de  similaridad  más  habitua¬ 
les  son  las  siguientes: 


Distancia  mínima:  dmiD  (z¡,Z.)  =  min ||z  - z'll 

z'eZj 

Distancia  máxima:  ( Z, , Z . )  =  max II z-z 

maxV  i’  ])  zsZ¡  II 
z'eZj 

Distancia  media:  dmed  [z^Zj )  =  ||m,  -  M  ; 


(14) 

(15) 

(16) 


Y  en  todas  ellas,  la  norma  ||x||  utilizada  es  la  euclídea: 


Uso  de  la  distancia  euclídea  (arriba)  y  de  Mahalano¬ 
bis  (abajo).  Las  líneas  rojas  representan  los  puntos 
de  igual  distancia  al  centro  del  agrupamiento. 
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2 


Nd 


banda  I 


banda  k 


IMd 


Criterio  de  asignación  por  mínima 
distancia. 


Clasificadores  paramétricos 

Los  clasificadores  son  los  operadores  encargados  de 
etiquetar  los  vectores  de  características  z  con  alguna 
de  las  clases  w¡  comparando  una  conjunto  de  c  fun¬ 
ciones  discriminantes  g¡  (z),  donde  i=  1,  2,...  c: 

zewi  si  gi(z)>gj(z)  V  j*i  (17) 

El  clasificador  divide  el  espacio  de  características  en 
c  clases  diferentes  o  regiones  de  decisión 
wc  y  asigna  la  etiqueta  de  clase  w¡  a  un  determinado 
vector  de  características  z  cuando  la  función  discri¬ 
minante  que  le  corresponde  para  esa  clase  supera  en 
valor  a  cualquiera  del  resto  de  las  clases. 


Entre  los  clasificadores  más  empleados  se  encuen¬ 
tran  el  de  mínima  distancia,  el  paralelepipédico,  el 
isodata,  el  de  k-Means,  y  el  de  máxima  probabilidad. 

-i  Clasificador  de  mínima  distancia.  El  criterio  más 
sencillo  para  asignar  una  celda  a  una  categoría 
consiste  en  incluirlo  en  la  espectralmente  más  cer¬ 
cana,  dentro  del  espacio  de  características.  La  fun¬ 
ción  de  similaridad  utilizada  es  la  distancia  euclí- 
dea  entre  el  vector  de  características  de  la  celda  y 
el  centro  de  la  clase,  representado  por  su  vector 
de  medias: 


Criterio  de  asignación  por  paralele¬ 
pípedos,  aplicado  a  un  espacio  es¬ 
pectral  de  sólo  dos  dimensiones. 


(18) 


La  celda  se  asignará  a  la  clase  que  presente  una 


menor  distancia  de. 

-i  Clasificador  paralelepipédico.  La  clasificación  pa- 
ralelepipédica  o  de  hipercubos  fija  áreas  de  domi¬ 
nio  para  cada  categoría.  Una  celda  de  nivel  digital 
ND(k  en  la  banda  k  de  una  imagen  de  n  bandas 
será  atribuida  a  la  clase  C  si  se  verifica: 

ÑDc  - R(ck  < ND(k  <  ÑDc  +R(ck  VI  <k<n 

(19) 

siendo  siendo  R(ck  un  rango  de  variación  conce¬ 
dido  alrededor  del  valor  medio  de  la  clase  C  en  la 
banda  k.  Cuanto  mayor  sea  el  rango,  mayor  será 
el  número  de  celdas  incluidas  en  la  categoría,  pero 
se  incrementará  el  riesgo  de  error  de  comisión  de 
la  clasificación.  Por  el  contrario,  si  el  umbral  es 
excesivamente  pequeño,  ese  tipo  de  error  se  mini¬ 
mizará,  pero  también  aumentarán  las  celdas  sin 
clasificar,  incrementándose  así  el  error  de  omi¬ 
sión. 

-i  Clasificador  isodata.  Es  un  algoritmo  de  clasifica¬ 
ción  automática  iterativo  basado  en  la  función  de 
mínima  distancia  euclídea.  En  cada  ciclo  de  clasi¬ 
ficación  se  asignan  las  celdas  a  una  clase  provisio¬ 
nal.  Durante  el  desarrollo  del  algoritmo  se  regis¬ 
tran  fugas  de  celdas  de  una  clase  a  otra  hasta  que 
el  proceso  converge.  El  algoritmo  de  clasificación 
isodata  sigue  los  siguientes  pasos: 

1.  Se  eligen  los  valores  iniciales  mx,m2,- ■  ■  ,khc 

que  actuarán  como  semillas  de  los  clusters.  Si 
no  hay  valores  previos,  se  toma  el  vector  de  ca¬ 
racterísticas  de  la  primera  celda  de  la  imagen. 

2.  Calcular  la  distancia  entre  la  semilla  y  la  se¬ 
gunda  celda. 
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a.  Si  es  inferior  a  un  radio  espectral  r  prefi¬ 
jado,  se  incluye  en  el  mismo  cluster. 

b.  En  caso  contrario  se  considera  la  segunda 
celda  como  segunda  semilla,  y  así  sucesiva¬ 
mente  hasta  c  clases. 

3.  Se  clasifica  la  imagen  completa,  asignando  las 
celdas  al  agrupamiento  más  próximo. 

4.  Se  recalculan  las  medias  de  los  agrupamientos 
considerando  las  nuevas  asignaciones,  pasando 
a  tomar  los  valores 

5.  Se  reitera  el  ciclo  de  reclasificación  hasta  mejo¬ 
rar  la  convergencia  de  los  valores,  o  hasta  al¬ 
canzar  un  número  prefijado  de  iteraciones. 

6.  Se  descarta  cualquier  agrupamiento  que  con¬ 
tenga  menos  datos  que  un  determinado  valor 
también  prefijado. 

7.  Se  reagrupan  o  se  escinden  los  agrupamientos, 
de  acuerdo  con  las  siguientes  reglas: 

a.  Agrupar  clusters  si  su  número  excediese  de 
un  valor  prefijado. 

b.  Dividir  los  clusters  si  su  número  no  alcanza 
un  valor  umbral. 

8.  Se  toma  el  centro  de  masas  cada  cluster  como 
una  nueva  semilla  y  se  reitera  la  clasificación 
como  en  la  etapa  2. 

9.  Se  repiten  los  pasos  3,  4,  5,  6  y  7  hasta  que  el 
proceso  converja  o  hasta  alcanzar  un  número 
de  iteraciones  establecido  con  anterioridad. 

-i  Clasificador  k -means.  Este  algoritmo  de  clasifica¬ 
ción  automática  opera  de  un  modo  parecido  al  an¬ 
terior,  pero  si  en  aquél  se  establecían  las  regiones 
de  decisión  como  círculos  en  un  plano  euclídeo 
espectral  R2,  en  éste  se  disponen  como  polígonos 
de  Thiessen.  El  algoritmo  sigue  los  siguientes  pa¬ 
sos: 

1.  Se  especifica  un  número  inicial  de  clases  y  se 
generan  las  clases  por  distancia  euclídea.  Se 
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toma  una  celda  de  cada  clase  como  centroide 
del  agrupamiento.  Se  definen  los  segmentos 
que  unen  todos  los  centroides  entre  sí  y  se  tra¬ 
zan  sus  mediatrices,  con  las  que  se  generarán 
tantos  polígonos  de  Thiessen  como  clases  se 
han  establecido. 

2.  Se  configuran  las  nuevas  clases  con  las  celdas 
que  pertenecen  a  cada  polígono.  Es  posible  que 
celdas  que  anteriormente  pertenecían  a  una  ca¬ 
tegoría,  tras  la  teselación  del  espacio  espectral, 
ahora  pertenezcan  a  otra. 

3.  Se  calcula  el  centro  de  masas  de  las  nuevas  nu¬ 
bes  de  puntos,  es  decir,  sus  vectores  de  medias, 
y  se  erigen  como  nuevas  semillas  de  los  agru¬ 
pamientos  para  la  segunda  iteración. 

4.  Se  reiteran  los  pasos  2,3  y  4  hasta  que  el  pro¬ 
ceso  sea  convergente  y  no  se  registren  más  fu¬ 
gas  de  celdas  entre  categorías,  o  su  número  sea 
inferior  a  uno  establecido  con  anterioridad. 

Naturalmente,  tanto  este  clasificador  como  el  iso- 
data,  trabajarán  con  la  dimensionalidad  completa 
de  la  imagen  en  un  espacio  generalizado,  y  distri¬ 
buirán  las  regiones  de  decisión  en  hiperplanos.  R”, 
siendo  n  en  el  número  de  bandas. 

Clasificador  de  máxima  probabilidad.  Este  clasifi¬ 
cador  es  de  los  más  robustos  y  utilizados  dentro 
de  los  procedimientos  paramétricos  de  clasifica¬ 
ción  digital.  Consiste  en  etiquetar  las  celdas  con  la 
categoría  a  la  que  más  probabilidad  tenga  de  per¬ 
tenecer  por  su  vector  de  características,  asu¬ 
miendo  distribuciones  normales  para  las  clases. 
Para  ello  se  establece  la  probabilidad  de  pertenen¬ 
cia  a  cada  clase,  utilizando  la  función  de  densidad 
de  probabilidad  enunciada  en  (2). 

Clasificador  de  máxima  probabilidad  bayesiana. 
La  aplicación  del  teorema  de  Bayes  a  la  clasifica- 
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E 


Universo  muestral  E  teselado  por  n  sucesos 
y,  sobre  ellos,  el  suceso  B.  Las  probabilidades 
condicionadas  P(B/A¡)  son  las  proporciones 
de  elipse  que  interceptan  cada  rectángulo  A¿ 
en  relación  con  la  superficie  de  este  último. 


ción  de  máxima  probabilidad  mejora  los  resulta¬ 
dos  finales.  La  probabilidad  de  un  determinado  su¬ 
ceso  B  condicionada  a  otro  suceso  A  es  la  proba¬ 
bilidad  de  que  ocurra  B,  supuesto  que  también  se 


verifica  la  ocurrencia  de  A:  P(B/ A) 


p(Ana) 

P(A ) 

(20) 


De  igual  forma: 


P(A/B) 


P[AT\B) 

P(B) 


(21) 


de  modo  que  se  puede  escribir: 

P(Af)B)  =  P(Á)P(B/A)  =  P(B)P(A/B )  (22) 


Dos  sucesos  se  consideran  independientes 
cuando: 


/3(Afl5)  =  JP(A)P(5)  (23) 


Lo  cual  quiere  decir  que  P(A/.B)  =  P(A)  y  que 
P(B/A )  =  P(B ) .  De  lo  contrario,  son  dependien¬ 
tes  entre  sí. 

Pues  bien,  si  en  un  contexto  de  decisión  se  consi¬ 
deran  n  sucesos  mutuamente  excluyentes  Ai  que 
formen  un  sistema  exhaustivo,  es  decir  que  la 
unión  de  todos  ellos  dé  lugar  al  suceso  seguro  o 
universo  muestral  E : 


U  A=E  (24) 

/=! 


y  de  todos  ellos  se  conocen  las  probabilidades 
P(Ai)  de  que  sucedan,  la  probabilidad  del  suceso 
B,  del  que  se  conocen  todas  las  probabilidades 
condicionadas  P(B/A¡),  será: 


P(B)  =  P(Ef]B)  =  P 


í  n  \ 

Ua 

V  i=l  J 


fifi 


2>(Ans) 


(25) 


o  sea: 


P(B)  =  ÍP(A)P{B/Ar)  (26) 

i= 1 

La  expresión  (22),  aplicada  a  este  caso,  se  puede 
poner: 

P(A,r\B)  =  P(A,)P(B/A,)  =  P(B)P(A,/B) 

(27) 


o  sea: 


P(A/B) 


f(A)f(fl/A) 

P(B) 


(28) 


Sustituyendo  el  denominador  por  su  valor  (26): 


p(A)p(b/A )  (29) 

Í,p(A)p(b/A) 

i= 1 

que  es  la  expresión  del  teorema  de  Bayes.  En  esta 
expresión,  P[AjB)e s  la  probabilidad  a  poste- 

riori,  P(A¡)  es  la  probabilidad  a  priori  y 


Teledetección:  principios  y  aplicaciones 


13-12 


Clasificación  digital  de  imágenes 


P(B/ A )  se  denomina  verosimilitud. 


gi(z)  =  p(wi/z) 


(32) 


En  el  contexto  de  decisión  dentro  de  la  clasifica¬ 
ción  digital  de  imágenes  en  teledetección,  la  varia¬ 
ble  aleatoria  es  el  vector  de  características  de  una 
celda  z,  y  el  teorema  de  Bayes  puede  escribirse 
así: 


=  (30) 

£p(h.,)p(z7»>,) 

7=1 

Si  w\  y  W2  son  dos  posibles  estados  para  una  celda, 
es  decir,  dos  clases  a  las  que  hay  probabilidad  de 
que  pertenezcan,  se  asume  la  ocurrencia  del  su¬ 
ceso  un  cuando: 

P(wJz)>P(w2/z )  (31) 

Utilizando  el  clasificador  bayesiano,  dado  que  los 
denominadores  de  la  expresión  (30)  son  siempre 
los  mismos,  sea  cual  sea  la  clase  considerada,  la 
expresión  (31)  conduce  a  la  siguiente  operación 
de  decisión: 


P(w,./f) 


á-á-\w^úp{w^)p{zl^)>P{w2)p{zlw2) 

|w2siP(w1)P(z7w1)<P(w2)P(z7w2) 

(31) 

en  cuya  expresión  se  han  utilizado  solamente  los 
numeradores  de  la  expresión  de  Bayes  como  fun¬ 
ción  de  decisión. 

De  modo  general,  la  función  discriminante  en  la 
decisión  bayesiana  es  la  probabilidad  a  posteriori : 


y  la  celda  será  atribuida  a  la  clase  para  la  que  la 
probabilidad  a  posteriori  sea  más  alta.  Aplicando 
el  teorema  de  Bayes: 


gi(z)  =  P(z/wi)P(wi )  (33) 

De  modo  que  la  celda  pertenece  a  la  clase  w¡  si 
g¡(z)>  gj(z),  o  lo  que  es  lo  mismo: 


decidir  wi  si  P{wjz)>  /?) 

es  decir,  si  P{w¡)P{z¡w¡)>  P(wj)P(z/wj) 

(32) 

La  función  de  decisión  es,  pues,  la  probabilidad  a 
posteriori  P[wjz),  pero  no  es  fácil  decidir  a  qué 

clase  puede  pertenecer  una  celda  condicionada  a 
que  se  verifiquen  unos  determinados  niveles  digi¬ 
tales,  o  lo  que  es  lo  mismo,  a  la  vista  de  su  vector 
de  características.  En  cambio,  resulta  más  fácil 
plantear  el  problema  de  la  decisión  en  términos 
bayesianos.  Por  un  lado,  se  conoce,  o  se  puede  co¬ 
nocer,  la  probabilidad  a  priori  de  cada  clase 
P(wi),  es  decir,  su  abundancia  dentro  de  la  ima¬ 
gen  que  se  va  a  clasificar  o,  lo  que  es  lo  mismo,  la 
proporción  que  ocupa  cada  clase  dentro  de  la  es¬ 
cena,  sea  cual  fuere  la  ubicación  de  las  celdas  que 
le  corresponden  Esta  información  puede  obte¬ 
nerse  a  partir  de  clasificaciones  anteriores,  u  otras 
fuentes  auxiliares.  En  el  caso  de  no  contar  con  di¬ 
cha  información,  se  puede  adoptar  provisional¬ 
mente  una  probabilidad  igual  a  todas  las  catego¬ 
rías  para  iniciar  la  clasificación. 


Nd 


Un  clasificador  de  máxima  verosimilitud 
clasificará  las  categorías  Ci,  C2  y  C3  como 
diferentes,  aunque  con  errores  de  asigna¬ 
ción  entre  la  clase  Ci  y  C2,  debido  al  sola- 
pamiento  de  sus  distribuciones. 


p(w/z) 
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máxima  probabilidad 

El  clasificador  de  máxima  orobabilidad  bave- 
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Árbol  de  clasificación. 


El  otro  factor  pendiente  de  conocer  para  aplicar  el 
teorema  de  Bayes  es  la  verosimilitud  P(z/w¡), 

que  en  este  contexto  es  la  probabilidad  de  que  se 
cumpla  un  determinado  nivel  digital,  o  un  vector 
de  características  si  se  habla  de  una  imagen  mul- 
tiespectral,  condicionado  a  cada  clase  de  la  le¬ 
yenda.  Si  se  asume  que  los  niveles  digitales  de  las 
clases  siguen  distribuciones  normales  multivarian- 
tes,  la  verosimilitud  es  simplemente  la  probabili¬ 
dad  leída  en  el  eje  de  ordenadas  de  la  gráfica  de 
la  distribución  normal,  o  en  las  tablas  estadísticas 
habituales. 

Otros  criterios  de  asignación 

Hay  otros  clasificadores  que  no  se  atienen  a  los  pará¬ 
metros  de  la  distribución  normal.  Entre  ellos  pueden 

citarse  los  siguientes. 

-i  Clasificador  en  árbol.  Estos  operadores  identifican 
las  categorías  secuencialmente  y  en  cada  paso  uti¬ 
lizan  las  bandas  más  apropiadas  para  la  discrimi¬ 
nación.  Para  configurar  una  determinada  clase  se 
seleccionan  las  celdas  cuyo  ND  esté  comprendido 
dentro  de  un  cierto  intervalo,  o  bien  aquellas  que 
cumplan  una  determinada  condición,  y  se  conti¬ 
núa  el  proceso  sólo  con  ellas.  Cuando,  en  una  de¬ 
terminada  banda,  una  celda  exhiba  un  ND  con  el 
que  pueda  ser  asignada  a  más  de  una  categoría,  el 
clasificador  establecerá  nuevas  condiciones  que 
involucren  a  varias  bandas  simultáneamente. 

Estos  clasificadores  suelen  estar  constituidos  por 
centenares  de  reglas  y  proporcionan  resultados 
muy  satisfactorios,  siempre  la  base  de  conoci¬ 
miento  sea  suficiente.  En  ellos  se  basan  los  siste¬ 
mas  expertos  que,  además,  aprenden  de  los  resul¬ 
tados  previos  para  sucesivas  clasificaciones. 


-i  Clasificadores  texturales.  En  análisis  de  imagen, 
la  textura  se  refiere  a  las  diferencias  de  reflectan- 
cia  entre  celdas  adyacentes.  Estos  clasificadores 
utilizan  determinadas  características  en  la  vecin¬ 
dad  de  un  pixel,  como  la  reflectancia  media,  la  va- 
rianza,  la  autocorrelación,  etc.,  con  el  fin  de  incor¬ 
porar  a  la  clasificación  algunas  de  las  propiedades 
cualitativas  que  suelen  ser  tenidas  en  cuenta  en 
fotointerpretación.  Puede  realizarse  un  análisis  de 
la  textura  de  una  escena  aplicando  determinados 
filtros  e  incorporando  esta  información  como  una 
fuente  más  de  discriminación. 

-i  Clasificadores  de  contexto.  Todos  los  clasificado¬ 
res  enunciados  hasta  ahora  clasifican  la  imagen 
celda  a  celda  utilizando  cualquiera  de  los  criterios 
explicados.  Sin  embargo,  en  las  imágenes  reales, 
lo  más  habitual  es  que  las  clases  se  presenten  en 
la  escena  en  grupos  de  celdas  más  o  menos  gran¬ 
des,  y  con  mucha  menor  frecuencia  como  celdas 
aisladas.  Los  clasificadores  de  contexto  clasifican 
las  celdas  por  grupos,  previamente  reunidos  por 
similitud  de  los  ND,  etiquetando  cada  una  de  ellas 
en  relación  con  la  asignación  de  las  adyacentes. 

-i  Clasificación  hiperespectral.  Además  de  las  técni¬ 
cas  clásicas  de  clasificación  paramétrica,  la  telede¬ 
tección  hiperespectral  utiliza  procedimientos  espe¬ 
cíficos  que  aseguran  una  mayor  discernibilidad  en¬ 
tre  categorías,  pudiéndose  con  ello  separar  eficaz¬ 
mente  docenas  de  clases.  En  ocasiones  no  se  re¬ 
quiere  clasificar  completamente  la  escena  sino  so¬ 
lamente  identificar  la  presencia  de  ciertas  clases  a 
lo  largo  de  ella.  Para  ello  se  realizan  cocientes  y 
otras  operaciones  algebraicas  con  las  bandas,  ba¬ 
sados  en  rasgos  espectrales  únicos  y  específicos 
de  los  componentes  buscados. 
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Sucesiva  degradación  de  la  signatura  espectral:  la  obte¬ 
nida  mediante  un  espectrorradiómetro  (a),  la  obtenida  por 
el  sensor  Aster  (b)  y  la  de  Landsat-ETM+  (c)  de  cuatro  mi¬ 
nerales  de  la  arcilla:  montmorillonita  (azul)  nontronita 
(verde),  vermiculita  (rojo)  y  talco  (magenta).  Fatima,  K.  et 
al  2017.  Minerals  identification  and  mapping  using  satel- 
lite  image.  Journal  of  Applied  Remóte  Sensing.  SPIED. 


Control  de  calidad  temático 


La  imagen  clasificada  no  tiene  una  fiabilidad  abso¬ 
luta.  Existen  errores  de  asignación  por  similitud  es¬ 
pectral  entre  celdas  que,  perteneciendo  a  categorías 
cartográficas  diferentes,  presentan  signaturas  espec¬ 
trales  muy  parecidas. 


De  modo  general,  siempre  es  preferible  un  mayor 
número  de  bandas  para  establecer  un  mayor  nú¬ 
mero  de  clases,  tanto  si  se  trabaja  con  operadores 
paramétricos  como  si  se  emplean  otros  procedi¬ 
mientos.  La  signatura  espectral  queda  mejor  esta¬ 
blecida  realizando  barridos  espectrales  minucio¬ 
sos  que  con  los  diagramas  de  signaturas  con  los 
que  trabajan  los  operadores  multiespectrales  clá¬ 
sicos. 


ha  sido  asignada  a  ella.  Es  el  denominado  en  esta¬ 
dística  error  tipo  I. 

— i  Error  de  comisión.  Se  produce  cuando  la  celda  es 
etiquetada  dentro  de  una  categoría  a  la  que  real¬ 
mente  no  pertenece.  Es  el  error  tipo  II. 


Aleatorio  simple 


Aleatorio  es  ¡ratificado 


Sistema! ico  no  alineado 


Aunque  los  errores  de  asignación  se  refieren  siempre 
a  un  mal  etiquetado  de  las  celdas  dentro  de  una  ca¬ 
tegoría  de  clase  determinada,  en  el  control  de  calidad 
estas  incorrecciones  pueden  estudiarse  desde  dos 
puntos  de  vista,  que  dan  lugar  a  dos  tipos  de  error 
temático  en  el  proceso  de  clasificación: 

— i  Error  de  omisión.  Se  produce  cuando,  pertene¬ 
ciendo  la  celda  a  una  determinada  categoría,  no 


Con  el  fin  de  ofrecer  al  usuario  la  información  com¬ 
pleta  del  proceso  de  clasificación,  es  necesario  reali¬ 
zar  un  control  de  calidad  que  establezca  la  fiabilidad 
del  proceso.  Para  ello,  tras  la  clasificación,  se  debe 
realizar  un  proceso  de  verificación.  Si  se  dispone  de 
una  fuente  de  verdad-terreno  exhaustiva,  por  ejem¬ 
plo,  procedente  de  fuentes  cartográficas  o  de  otras 
clasificaciones  anteriores,  la  verificación  puede  abar¬ 
car  la  imagen  completa.  Sin  embargo,  lo  más  fre¬ 
cuente  es  no  disponer  de  esa  información,  por  lo  cual 


Por  conglomerados 


Tipos  de  muestreo  de  verificación. 


Carlos  Pinilla 


es  necesario  plantear  una  campaña  de  muestreo  para 
la  verificación. 

Existen  varios  tipos  de  muestreo  de  verificación.  En¬ 
tre  los  más  difundidas  están  los  siguientes. 

-i  Aleatorio  simple:  las  celdas  a  verificar  se  designan 
al  azar. 

— i  Aleatorio  estratificado:  se  divide  el  espacio  mues- 
tral  en  diversas  subpoblaciones  o  estratos  sobre 
cada  una  de  los  cuales  se  aplica  un  muestreo  alea¬ 
torio. 

-i  Sistemático:  a  partir  de  un  punto  designado  al 
azar,  se  confecciona  la  muestra  mediante  la  selec¬ 
ción  de  puntos  equidistantes  en  las  dos  dimensio¬ 
nes  de  la  imagen. 

-i  Sistemático  no  alineado:  se  traza  una  cuadrícula 
sistemática,  a  partir  de  cuyos  nudos  se  varían  al 
azar  las  coordenadas  de  los  elementos  de  la  mues¬ 
tra. 

— i  Por  conglomerados:  es  un  muestreo  aleatorio  en 
el  que  en  lugar  de  una  sola  celda  se  selecciona  un 
grupo  de  ellas  para  formar  la  muestra,  siguiendo 
siempre  el  mismo  patrón  geométrico. 

Lo  que  la  verificación  de  la  exactitud  de  la  clasifica¬ 
ción  trata  de  establecer  es  el  nivel  de  error  en  el  eti¬ 
quetado  de  las  celdas.  Para  ello,  juega  un  papel  fun¬ 
damental  el  tamaño  de  la  muestra.  El  número  de  cel¬ 
das  que  deben  verificarse  depende  de  dos  factores. 
En  primer  lugar,  del  nivel  de  confianza  que  quiera 
otorgarse  a  la  estimación.  Es  obvio  que  para  tener  el 
100  %  de  confianza  en  la  cifra  de  error  debería  veri¬ 
ficarse  el  conjunto  completo  de  celdas  de  la  imagen. 
En  segundo  lugar,  de  la  información  previa  que  se 
posea  sobre  la  población.  El  conocimiento  previo  de 
la  dispersión  de  ND  dentro  de  cada  clase,  es  decir,  su 
varianza,  permite  reducir  el  número  de  muestras  sin 
disminuir  el  nivel  de  confianza  de  la  estimación. 


Control  de  calidad 


13-15 


El  suceso  {celda  bien  clasificada-celda  erróneamente 
clasificada}  se  distribuye  como  una  variable  aleatoria 
discreta  binomial: 

X  eb(n,p)  (33) 

donde  n  es  el  tamaño  de  la  muestra  y  p  es  la  proba¬ 
bilidad  de  acierto  en  la  clasificación.  La  función  de 
densidad  de  probabilidad  de  la  distribución  binomial 
es: 


f(x)  =  P(X=x) 


' n ' 


pxq”~x 


(34) 


con  x  e  [0,1, y  q=l-p,  es  decir,  la  probabili¬ 
dad  de  error  en  la  clasificación. 


Según  el  teorema  de  Moivre,  cuando  n  — >  oo ,  la  dis¬ 
tribución  binomial  es  asintóticamente  normal 
N(np,  npq ),  es  decir,  converge  en  distribución  a  una 
normal  de  \x=np  y  o2=npq .  En  la  práctica,  el  crite¬ 
rio  de  convergencia  puede  adoptarse  cuando  n  >  30 . 

Con  todo  ello,  el  problema  de  determinar  el  tamaño 
muestral  se  plantea  así:  se  trata  de  calcular  el  tamaño 
n  de  la  muestra  para  estimar  la  probabilidad  p  de  que 
una  categoría  esté  bien  clasificada,  con  un  error  de 
±s  y  un  nivel  de  confianza  en  la  estimación  de  1-a, 
esto  es,  que  el  error  tipo  I  (rechazar  la  hipótesis  Ho 
de  asignación  acertada,  siendo  ésta  verdadera)  sea  in¬ 
ferior  a  a.  Se  trata,  pues,  de  un  problema  de  estima¬ 
ción  por  intervalo  de  confianza,  donde  éste  es: 
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siendo  za/  el  percentil  de  la  distribución  normal 

/2 

7V(0,1)  correspondiente  a  la  mitad  del  nivel  de  con¬ 
fianza  exigido  en  la  estimación. 

El  error  admitido  en  la  asignación  de  etiquetas  a  la 
celda  será: 


el  percentil  buscado  es  1-a  =  0,99;  a  =  0,01  y 
a/2  =  0,005.  El  valor  de  z  que  proporciona  ese  nivel 
de  confianza  es: 

=  2,575;  Zy  =  6,630625 

Admitiendo  un  error  máximo  del  ±5  %  en  la  asigna¬ 
ción  de  la  celda,  el  tamaño  de  la  muestra  de  verifica¬ 
ción  deberá  ser  como  mínimo: 


De  donde  puede  deducirse  el  mínimo  número  de  cel¬ 
das  que  deben  integrar  la  muestra  de  verificación: 


n  = 


(37) 


Si  no  se  dispone  de  información  más  precisa  sobre  la 
población,  en  el  peor  de  los  casos  puede  adoptarse 
p  =  q  =  0,5,  de  tal  modo  que  pueda  disponerse  de  un 
límite  inferior  para  el  tamaño  muestral: 


4  6,630625 

n  =  — -br\  n  = - — 

4s2  4-0,052 


6,630625 

0,01 


Matriz  de  confusión 

Los  resultados  de  la  verificación  suelen  presentarse 
en  una  tabla  de  contingencia  cuadrada  en  la  que  las 
filas  recogen  las  categorías  obtenidas  en  el  proceso 
de  clasificación  y  las  columnas  la  verdad-terreno,  es 
decir,  las  categorías  verificadas. 


Este  valor  es  válido  para  determinar  el  número  de 
celdas  a  muestrear  para  cada  categoría.  El  número 
total  de  celdas  de  verificación  será  el  producto  de 
este  valor  por  el  número  de  clases  de  la  leyenda.  Si, 
por  el  contrario,  se  conoce  a  priori  el  intervalo  de 
existencia  de  la  probabilidad  p  de  resultar  la  celda 
bien  clasificada,  se  puede  reducir  el  tamaño  de  la 
muestra,  en  la  medida  que  se  reduce  el  producto  pq. 

Es  bastante  frecuente  verificar  los  resultados  a  partir 
de  un  muestreo  sistemático  no  alineado  o,  en  su  de¬ 
fecto,  uno  aleatorio  simple.  Para  cualquiera  de  estos 
casos,  si  se  requiere  un  nivel  de  confianza  del  99  %, 


Cada  elemento  de  la  matriz  representa  el  número  de 
celdas  que,  perteneciendo  en  la  clasificación  a  la  ca¬ 
tegoría  que  marca  su  fila,  realmente  la  verificación  ha 
demostrado  su  pertenencia  a  la  clase  que  indica  su 
columna.  La  diagonal  principal  de  la  matriz  repre¬ 
senta  el  número  de  celdas  correctamente  clasificadas 
para  cada  categoría  de  la  leyenda  y  los  elementos 
fuera  de  la  diagonal  principal  indican  errores  de  asig¬ 
nación,  que,  como  ha  quedado  establecido,  son  de 
dos  tipos: 

-i  Los  situados  dentro  de  una  misma  columna  repre¬ 
sentan  el  error  de  omisión. 

-i  Los  pertenecientes  a  una  misma  fila  representan 
el  error  de  comisión. 


El  peor  escenario  para  determinar  el  mínimo 
número  de  celdas  de  la  muestra  de  verifica¬ 
ción  es  en  el  que  no  se  conoce  la  probabili¬ 
dad  de  ser  bien  clasificada  la  categoría.  En 
ese  caso,  p  =  q  =  0,5  y  n  es  máximo. 
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Un  ejemplo  de  matriz  de  confusión  para  10  categorías. 


El  error  de  omisión,  también  llamado  riesgo  del  pro¬ 
ductor,  se  calcula  como  la  proporción  de  los  residuos 
por  columnas  en  relación  con  el  total: 

Hxij~xjj 

EO -  i*j  (39) 

Lxü 


Por  su  parte,  el  error  de  comisión,  o  riesgo  del  usua¬ 
rio,  se  calcula  como  la  proporción  de  los  residuos  por 


filas  en  relación  con  el  total: 

EC¡  =  -  i*j  (40) 

Lx.j 

j 


Los  complementarios  de  los  errores  de  omisión  y  co¬ 
misión  se  llaman  fiabilidades  del  productor  y  del 
usuario,  respectivamente: 


x.¡ 

FP  =  11 


‘  I 


X,.,. 


(41) 


FUi= =JiL_  (42) 

Lxu 

j 

Cuando  la  clasificación  solamente  tiene  dos  catego¬ 
rías,  resulta  evidente  comprobar  que  el  error  de  omi¬ 
sión  de  una  de  ellas  es  justamente  el  de  comisión  de 
la  otra.  Sin  embargo,  cuando  el  número  de  clases  es 
mayor,  los  errores  se  fugan  entre  las  categorías  y  so¬ 
lamente  se  puede  afirmar  que  la  suma  de  los  errores 
de  omisión  es  igual  a  la  suma  de  los  de  comisión,  lo 
cual  puede  comprobarse  en  los  ejemplos  al  margen. 

Dentro  del  ámbito  del  análisis  categórico  multiva- 
riante,  uno  de  los  índices  más  empleados  en  la  eva¬ 
luación  de  la  calidad  de  la  clasificación  es  el  porcen¬ 
taje  de  acuerdo,  que  se  refiere  a  la  concordancia  ob¬ 
servada,  esto  es,  la  suma  de  los  elementos  situados 
en  la  diagonal  de  la  matriz  de  confusión,  que  son  los 
elementos  correctamente  identificados  en  la  clasifica¬ 
ción,  en  relación  con  el  total  de  la  muestra,  expresada 
en  tanto  por  ciento: 
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Z*. 

P  =  - - 100  (43) 

n 

Y  otro  índice  muy  empleado  en  la  evaluación  de  la 
calidad  de  la  clasificación  es  el  estadístico  Kappa  k 
de  Cohén,  que  cuantifica  el  nivel  de  acierto  atribuible 
al  método  de  clasificación  seguido,  por  encima  del 
que  se  hubiese  obtenido  meramente  por  azar: 


p  -p 

k  =  — - - (44) 

1  ~Pe 

donde  Pa  es  la  concordancia  observada  (porcentaje 
de  acuerdo)  y  Pe  la  concordancia  esperada  por  azar. 

Y  teniendo  en  cuenta  (100),  y  que: 


P  = 


z 

1 - 

w 

w 

1 _ 

1 

1— 

-•100  i  ^  j 


finalmente  se  tiene: 


K  =  - 


Z*„Z- 


n 


■Z 


Hxvllxij 


(45) 


(46) 


Tabla  1.  Significado  de  los  valores  de  Kappa. 


I  Valor  de  k 

Concordancia  1 

0,00 

Pobre 

0,01-0,20 

Leve 

0,21-0,40 

Aceptable 

0,41-0,60 

Moderada 

0,61-0,80 

Considerable 

0,81-1,00 

Casi  perfecta 

Verdad-terreno 


3  4 


E.Om 


E.com 


Forma  de  calcular  el  estadístico  k. 


El  índice  k  puede  adoptar  valores  comprendidos  en¬ 
tre  0  y  1.  La  interpretación  de  los  resultados  puede 
seguir  el  criterio  recogido  en  la  Tabla  1: 


Com(A)=Om(B) 

Om(Al=Com(B) 


A  B 

A 

2  3 

clasificación 

B 

1  5 

I 

3  8 

omisión 

1  3 

verdad-terreno 


comisión 


A 

B 

C 

A 

2 

3 

2 

7 

5 

clasificación  B 

1 

5 

1 

7 

2 

C 

1 

3 

7 

11 

4 

4 

11 

10 

1  25 

11 

omisión 

2 

6 

3 

11 

Cuando  el  número  de  clases  excede  de  dos, 
solo  se  puede  asegurar  que  la  suma  de 
errores  de  omisión  es  igual  a  la  de  los  de 
comisión 


Carlos  Pinilla 


